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摘要 : [目的 /意义 ] 关键 词 作为 应 用 最 为 广泛 的 文献 知识 单元 ， 对 于 其 语义 关系 的 深入 控 
气 可 为 知识 关联 、 资 源 推荐 等 工作 提供 底层 支持 。[ 方 法 /过 程 ] 基于 关键 词 直接 共 现 与 间接 共 
现 关系 对 关键 词 之 间 的 相关 性 进行 挖 据 ， 在 此 基础 上 对 关键 词 的 分 布 情况 进行 分 析 并 结合 关 
键 词 概念 范围 大 小 构建 关键 词 间 的 层次 结构 。[ 结果 /结论 ] 以 “知识 图 谱 ” 为 根 节点 ， 演 示 关 
键 词 层 次 结构 构建 步骤 ， 研 究 表明 ， 该 方法 具有 一 定 的 可 行 性 和 有 效 性 ， 能 够 较 好 地 构建 关 


键 词 层次 结构 。 
关键 词 : 科技 文献 关键 词 
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2022, 7(4): 443-451[ 引用 日 期 ]. http://www.kmf.ac.cn/p/306/. 


@@ 引 言 

科技 文献 主要 包括 题名 、 关 键 词 、 摘 要 、 
全 文 等 重要 内 容 ， 其 中 关键 词 是 最 常用 的 表示 
科技 文献 内 容 特征 的 知识 单元 ， 相 较 于 题名 来 
说 关键 词 能 表示 文本 内 容 特征 的 不 同 侧面 ， 与 
摘要 相 比 关键 词 表 示 的 知识 则 更 为 浓缩 ， 相 较 
于 全 文 来 说 关键 词 则 具有 利用 便捷 、 高 效 的 特 
点 。 由 此 关键 词 成 为 目前 应 用 范围 最 广 、 最 
受 关注 的 科技 文献 知识 单元 。 

对 于 关键 词 的 开发 利用 ， 主 要 是 在 关键 词 


间 相 关 性 挖掘 的 基础 上 ， 借 助 关 键 词 来 表征 文 
本 、 资 源 或 者 使 用 关键 词 的 用 户 的 特征 ， 进 而 
通过 关键 词 之 间 的 关联 来 建立 文本 间 、 资 源 间 
以 及 用 户 间 的 联系 ， 实 现 知识 关联 、 资 源 推荐 
等 工作 。 早 期 ,关键 词 间 相关 性 的 挖 据 主 要 依 
赖 于 对 词典 资源 的 利用 ， 但 因 词典 存在 更 新 速 
度 慢 、 履 盖 面 有 限 等 问题 ， 关 键 词 问 相关 性 的 
挖 据 逐步 转向 于 从 大 规模 的 语料库 中 学 习 并 构 
建 关键 词 特征 ， 通 常 采 用 向 量 特征 来 计算 关键 
词 间 相 似 度 ”“。 然 而 ， 关 键 词 间 存 在 着 同 义 、 
上 下 义 、 反 义 、 同 形 异 义 等 多 种 关系 ， 目 前 的 
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研究 常 将 这 些 复杂 的 关系 以 单一 的 相似 度数 值 
来 度量 ,例如 基于 关键 词 共 现 关系 的 词 间 相似 
度 挖掘 ， 这 种 方法 并 未 对 不 同 关 系 进行 区 分 ， 
缺少 对 关键 词语 义 信 息 的 深入 挖 气 ， 也 导致 在 
效果 上 存在 一 定 不 足 中 I。 笔 者 从 科技 文献 价值 
开发 的 角度 出 发 ， 在 关键 词 共 现 分 析 的 基础 上 
结合 对 词 本 身分 布 特征 的 分 析 ， 建 立 能 反映 关 
键 词 间 研 究 范 围 上 下 位 关系 的 关键 词 层 次 结构 ， 
以 更 好 地 对 关键 词 进行 挖掘 利用 ， 推 动 相关 人 研 
究 进展 。 


@ 相 关 研 究 
2.1 词语 相关 性 挖掘 


(1 ) 基于 词典 的 挖掘。 基于 词典 对 词语 进 
行 相关 性 挖掘 主要 是 依据 构建 词典 时 的 分 类 规 
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结合 ， 在 训练 得 到 Word2vec 词 向 量 后 ， 将 词 向 
量 融入 到 Jaccard 方法 中 ， 进 行 短文 本 间 相 关 性 
挖掘 ， 有 效 提 升 了 挖掘 效果 中 ; E. L. Pontes 等 
使 用 CNN 解析 单词 的 局 部 上 上下文， 使 用 LSTM 
分 析 句 子 的 全 局 上 下 文 ， 对 文本 信息 进行 有 效 
保留 以 提高 相关 性 挖掘 效果 "; M. M. Sanjeev 
等 借助 BERT 实现 词句 子 间 语义 相关 性 的 挖 气 ， 
并 将 其 应 用 于 邮件 查找 工作 中 "9。 

在 词语 相关 性 挖掘 方法 中 ， 基 于 词典 的 方 
法 对 词语 之 间 关 系 的 挖掘 较为 全 面 ， 词 语 相关 
性 挖掘 的 效果 通常 较 好 , 但 存在 词典 更 新 困难 、 
计算 范围 有 限 的 问题 ; 而 基于 大 规模 语 料 的 方 
法 ， 虽 然 能 显著 提升 计算 范围 ， 并 能 实现 对 词 
语 关 系 的 自动 挖掘 ， 但 这 类 方法 通常 对 语 料 的 
质量 要 求 较 高 ， 且 对 部 分 词语 如 低频 词 、 凸 现 


则 来 挖掘 词语 之 间 的 语义 联系 。WordNet 是 最 
常见 的 用 于 挖掘 英文 词语 间 相 关 性 的 语义 词典 ， 
通过 WordNet 可 有 效 挖 据 词 语 之 间 概 念 关系 ， 
并 用 于 文档 或 图 像 等 资源 间 相 似 度 的 计算 "; 
同义词 词 林 是 一 本 包含 词语 间 同 义 关系 的 语义 


基于 词 林 的 树 状 结构 能 对 词语 关系 进行 挖掘 吕 ; 
HowNet 也 是 常见 的 用 于 挖掘 中 文 词语 相关 性 的 
词 由， 区 别 于 应 用 词 林 时 基于 词典 结构 ， 在 利 
用 HowNet 进行 词语 间 相 关 性 挖掘 时 主要 是 依 
据 描述 词语 概念 的 义 原 外， 此 外 ， 同 时 借助 多 
种 词典 进行 词语 相关 性 挖掘 ， 相 较 于 借助 单一 
词典 能 在 一 定 程度 上 扩大 可 计算 词语 的 范围 并 
提升 相关 性 挖掘 的 准确 性 1。 

(2 ) 基于 大 规模 语 料 的 挖掘 。 相 较 于 基 
于 词典 的 方法 ， 基 于 大 规模 语 料 的 挖 气 效果 主 
要 取决 于 文本 特征 的 学 习 与 表示 方法 ， 且 其 圳 
括 的 词语 范围 远 高 于 基于 词典 的 范围 。 目 前 ， 
文本 特征 的 学 习 与 表示 ， 主 要 是 将 文本 特征 
经 过 训练 转换 为 词 向 量 ， 常 见 的 主要 有 基于 
CBOW 、Skip-gram 等 算法 训练 得 到 Word2vec 
词 向 量 上 ,以 及 目前 较为 流行 的 基于 CNN、 
LSTM 与 BERT 等 模型 训练 得 到 词 向 量 或 挖掘 文 
本 特征 所 1。 田 星 等 将 Jaccard 与 Word2vec 相 
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词 的 挖 气 效 果 较 差 上 1。 
2.2 词语 层次 关系 挖掘 

词语 层次 关系 挖掘 主要 是 对 词语 之 间 的 上 
下 位 关系 进行 挖掘 与 呈现 ， 即 在 词语 相关 性 挖 
掘 的 基础 上 进一步 得 出 词语 之 间 的 上 下 级 关系 
并 建立 相应 的 词语 结构 ， 目 前 常见 的 挖 气 对 象 
主要 为 社交 网 络 上 的 标签 类 词语 以 及 学 术 文 献 
中 的 关键 词类 词语 。G. Tibély 等 以 和 蛋白质 功能 
标签 与 电影 标签 为 对 象 ， 基 于 复杂 网 络 理 论 ， 
通过 网 络 加 权 与 共 现 关系 从 网 络 中 提取 出 了 标 
签 层次 关系 1 中; S. Li 等 基于 学 术 关键 词 的 共 现 
关系 以 及 词组 中 词 的 组 合 顺序 建立 了 关键 词 层 
次 结构 " ;能 回 香 等 依据 图 书 标签 的 概念 范围 
及 共 现 关系 进行 了 标签 层次 关系 建立 中 1。 

在 词语 层次 关系 构建 研究 中 ， 以 往 的 研究 
多 以 共 现 关系 为 基础 进行 词语 之 间 层 次 关系 的 挖 
据 ， 但 在 挖掘 时 仅 考 虑 了 词语 是 否 共 现 ， 没 有 对 
词语 的 语义 类 型 与 功能 进行 区 分 ， 因 而 难以 说 明 
层次 关系 是 按照 何 种 规则 进行 层次 递 进 ， 也 导致 
了 构建 的 层次 关系 在 应 用 上 存在 一 定 的 局 限 。 


例 研 究 框 架 与 关键 步骤 


3.1 研究 框架 
为 了 更 好 地 挖掘 词语 相关 性 ， 笔 者 借助 词 
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典 的 思想 ， 对 词语 间 共 现 情况 进行 深入 挖掘 来 
半自动 地 构建 能 反映 词语 间 上 下 位 关系 的 词语 
层次 结构 ， 并 将 建立 好 的 层次 结构 与 基于 语 料 
的 方法 结合 ， 以 拓展 相关 性 挖掘 的 范围 ， 提 高 
挖掘 结果 质量 。 因 学 术 关 键 词 具有 规范 、 精 炼 、 
语义 明确 等 特点 ， 笔 者 选择 研究 的 词语 为 学 术 
关键 词 ， 其 按 语义 类 型 及 功能 的 不 同 可 以 分 为 
研究 方法 类 、 研 究 主 题 类 、 研 究 范围 类 等 不 同 
类 型 的 关键 词 中 。 其 中 ， 研 究 方法 类 关键 词 反 
映 的 是 科技 文献 所 用 研究 方法 ， 通 过 挖 气 不 同 
科技 文献 在 研究 方法 上 存在 的 异同 之 处 可 以 较 
好 地 挖掘 文献 之 间 的 联系 ， 并 且 通 过 研究 方法 
之 间 的 关联 可 以 有 效 扩充 研究 方法 的 适用 范围 。 
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因此 ， 笔 者 在 挖掘 词语 相关 性 时 以 研究 方法 类 
学 术 关 键 词 作为 主要 研究 对 象 ， 通 过 挖掘 研究 
方法 类 关键 词 与 其 他 类 型 关键 词 间 的 共 现 关系 
来 构建 研究 方法 类 关键 词 层次 结构 ， 若 某 一 研 
究 方 法 类 关键 词 与 多 种 研究 主题 或 研究 范围 类 
关键 词 具 有 共 现 关系 ， 则 可 推断 该 方法 适用 于 
多 种 主题 ， 具 有 较为 广泛 的 应 用 范围 ， 以 此 为 
基础 构建 研究 方法 类 关键 词 的 层次 结构 ， 则 可 
按 关联 的 主题 与 研究 范围 大 小 进行 关键 词 层次 
递 进 , 使 构建 的 层次 结构 具有 更 好 的 应 用 价值 。 
按 此 思路 构建 的 研究 框架 共 分 为 数据 收集 与 预 
处 理 、 关 键 词 相似 度 计算 、 建 立 关键 词 层次 结 
构 3 个 步骤 ， 如 图 1 所 示 : 


数据 收集 与 关键 词 相似 建立 关键 词 
预 处 理 度 计算 层次 结构 
关键 词 数 | 研究 方法 类 关键 | | 研究 方法 类 关键 

文献 数 据 采集 上 | 证 研 究 访 二 类 | | 词 -特征 项 关键 
据 库 | | 关键 词 共 现 第 阵 | | 。 词 共 现 拨 阵 
关键 词类 型 划分 | | 研究 方法 类 研究 方法 类 
| } | 美 链 词 直入 关键 词 间接 
| 。 | 基于 情 况 5 现 情况 关键 词 层次 
2 结构 构建 
研究 方法 类 | | 非 研 究 方法 : 一 一 
关键 词 类 关键 词 直接 共 现 直接 共 现 
| 相似 度 相似 度 
等 征 项 关键 
词 综合 共 现 
相似 度 


1 基于 共 现 关系 的 研究 方法 类 关键 词 层次 构建 框架 


3.2 关键 步骤 
3.2.1 数据 收集 与 预 处 理 

从 文献 数据 库 中 采集 相关 科技 文献 关键 词 
数据 ， 对 采集 到 的 关键 词 数 据 进 行 筛选 与 统计 
工作 之 后 ， 按 照 参考 文献 [3] 与 参考 文献 [22] 所 
述 标准 将 关键 词 划分 为 研究 方法 类 关键 词 与 非 
研究 方法 类 关键 词 。 然 后 ， 对 于 非 研究 方法 类 
关键 词 ， 按 照 词 频 排 序 ， 选 择 词 频 数 较 高 的 部 
分 研究 主题 类 与 研究 范围 类 关键 词 作 为 特征 项 


关键 词 ， 用 以 在 后 续 研 究 中 描述 研究 方法 类 关 
键 词 的 特征 。 
3.2.2 关键 词 相 似 度 计算 

基于 关键 词 共 现 和 矩阵 计算 关键 词 间 相 似 度 。 
关键 词 间 的 共 现 可 分 为 直接 共 现 情况 与 间接 共 
现 情况 两 种 ， 在 本 文中 直接 共 现 情况 是 指 两 个 
研究 方法 类 关键 词 出 现在 同一 科技 文献 中 ， 即 
在 该 科技 文献 中 两 个 研究 方法 类 关键 词 被 用 于 
同一 研究 ; 间接 共 现 情况 则 是 指 两 个 研究 方法 


202310.00636v1 


chinaXiv 


知识 管理 论坛 
2022 年 第 4 期 (总 第 40 期 ) 


H< 扩 一 
类 关键 词 被 用 于 同一 个 研究 主题 或 者 研究 范 
围 中 。 笔 者 构建 研究 方法 类 关键 词 之 间 的 共 
现 矩 阵 用 以 反映 研究 方法 类 关键 词 间 的 直接 
共 现 情况 ， 构 建 研 究 方法 类 关键 词 与 特征 项 
关键 词 之 间 的 共 现 矩阵 用 以 反映 研究 方法 类 
关键 词 间 的 间接 共 现 情况 ， 并 在 共 现 矩阵 的 
基础 上 利用 余弦 相似 度 算法 计算 研究 方法 类 
关键 词 之 间 的 向 量 余 弱 距 离 ， 得 到 研究 方法 
类 关键 词 之 间 的 直接 共 现 相似 度 与 间接 共 现 
相似 度 ， 此 外 ， 考 虑 到 本 文 研 究 重 点 为 关键 
词 层次 结构 的 构建 ， 故 直接 对 两 种 相似 度 进 
行 加 权 整 合 得 到 研究 方法 类 关键 词 综 合共 现 
相似 度 。 
3.2.3 建立 关键 词 层次 结构 

研究 方法 类 关键 词 层次 结构 的 建立 主要 可 
以 分 为 概念 范围 度量 、 确 立根 节点 、 选 定 概 念 
范围 闵 值 、 确 立 子 节点 与 层级 递 进 5 个 步骤 。 

(1 ) 概念 范围 度量 。 人 研究 方法 类 关键 词 概 
念 范围 是 通过 其 与 特征 项 关键 词 之 间 的 共 现 关 
系 度量 ， 在 本 文中 特征 项 关键 词 是 反映 文献 研 
究 主题 、 研 究 对 象 等 特征 的 词 ， 若 相关 的 特征 
项 关键 词 越 多 ， 则 表明 研究 方法 类 关键 词 可 适 
用 于 更 多 的 研究 主题 或 对 象 ， 具 有 较 大 的 概念 
范围 。 

(2 ) 确立 根 节点 。 根 节点 概念 范围 越 大 ， 
则 与 其 相关 的 关键 词 层次 结构 也 能 具有 更 大 的 
适用 范围 ， 因 此 在 度量 研究 方法 类 关键 词 概念 
范围 之 后 选择 概念 范围 较 大 的 关键 词 作为 层次 
结构 的 根 节点 。 

(3 ) 制定 概念 范围 闽 值 。 为 使 概念 范围 接 
近 的 关键 词 尽 可 能 位 于 同一 层级 ， 其 处 于 上 下 
层级 的 关键 词 间 概念 范围 存在 一 定 差异 ， 使 得 
概念 范围 随 着 层级 递 进 呈 现 逐 层 递减 ， 需 要 控 
制 不 同 层级 中 关键 词 的 概念 范围 。 故 在 建立 层 
次 结构 时 ， 应 在 对 关键 词 概念 范围 进行 度量 的 
基础 上 ,分析 关键 词 概 念 范围 的 分 布 ,并 以 此 
制定 每 个 层级 的 概念 范围 闪 值 。 

(4 ) 确立 子 节点 。 确 立根 节点 并 制定 概念 
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范围 闷 值 之 后 ， 按 照 根 节点 关键 词 与 其 他 关键 
词 之 间 的 关系 确立 可 加 入 层次 结构 的 子 节点 关 
键 词 。 首 先 ， 加 入 层次 结构 的 子 节点 应 与 根 节 
点 具有 一 定 的 相关 性 ， 在 本 文中 即 子 节点 与 根 
节点 之 间 的 综合 共 现 相似 度 应 达到 一 定 值 ; 其 
次 , 子 节点 应 与 某 一 父 节 点 具有 一 定 的 相关 性 ， 
在 本 文中 即 子 节点 与 父 节 点 之 间 的 直接 共 现 相 
似 度 或 间接 共 现 相似 度 应 达到 一 定 值 ;， 最后， 
子 节点 的 概念 范围 应 达到 对 应 层级 的 概念 范围 
阔 值 。 

(5 ) 层级 递 进 。 确 立根 节点 后 ， 为 根 节点 
加 入 子 节点 作为 层次 结构 的 第 二 层级 ; 随后 ， 
将 加 入 的 子 节点 作为 第 三 层级 关键 词 的 父 节点 
并 为 其 加 入 对 应 的 子 节点 ， 并 通过 衡量 关键 词 
之 间 的 相似 度 以 及 关键 词 概 念 范围 是 否 达 到 对 
应 的 阔 值 来 向 层次 结构 中 逐渐 加 入 新 的 节点 ， 
每 个 关键 词 仅 能 加 入 层次 结构 1 次 ， 知 子 节点 
同时 与 多 个 父 节点 间 的 相似 度 达到 阔 值 ， 则 将 
其 与 相似 度 最 大 的 父 节 点 建立 层次 关系 ， 且 子 
节点 概念 范围 应 低 于 父 节点 。 

@ 实 证 研究 与 结果 分 析 
4.1 数据 收集 及 预 处 理 

考虑 到 学 科 内 的 研究 方法 在 较 短 年 限 内 不 
会 发 生 太 大 变化 以 及 期 刊 在 选 题 上 具有 一 定 的 
连贯 性 ， 因 此 选取 《图 书 情报 工作 》《 情 报 理 
论 与 实践 》《 和 情报 杂志 》《 情 报 科学 》《 情报 
学 报 》《 数 据 分 析 与 知识 发 现 》6 种 与 研究 方 
法 较为 相关 的 期 刊 上 作为 数据 来 源 期 刊 ， 选 择 
“实验 法 ”“ 实 证 研究 ”“ 统 计 分 析 ” 等 55 个 
使 用 频次 最 高 的 研究 方法 类 关键 词 请 作为 研究 
对 象 。 

在 中 国 知 网 上 构造 检索 表达 式 ， 设 置 源 期 
刊 为 《图 书 情报 工作 》 等 6 种 情报 学 核心 期 刊 ， 
包含 关键 词 为 “实验 法 ”或 “实证 研究 ”等 55 
个 关键 词 ， 发 表 时 间 为 2016 年 7 月 至 2021 年 6 
月 , 共 检 索 到 相关 文献 1489 篇 , 如 表 1 所 示 ( 仅 
展示 关键 词 与 题名 信息 ) : 
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表 1 科技 文献 数据 


序号 题名 关键 记 
. 悟 感 ff- > :用 
1 。 禹 合 PageRank 与 评论 情感 倾向 的 在 线 健康 社区 用 户 影响 力 研 究 9 重 民 加 申 ;在 康信 康 各 区 :用 
0 科技 文献; 领域 知识 图 谱 : 碎 片 化 ;开放 数 
2 。 基于 内 容 的 科技 文献 大 数据 控 据 与 应 用 
。 襄 鲜 提 . 香 3. 襄 村 = 
3 。 基于 模块 化 理论 的 复杂 产品 知识 管理 模型 研究 0 
。 双边 网 络 溃 突 结果 与 相对 网 络 能 力 强 弱 相 关 性 研究 一 基于 双 通用 信息 系统 ;专用 控制 系统 ; 非 对 称 进 
边 网 络 事件 争端 数据 库 和 贝尔 弗 国 家 网 络 能 力 指数 2020 。。” 攻 优 势 :相关 性 分 析 
PageRank: 情 感 倾向 ;在 线 健康 社区 :用户 


下 评价 指标 的 实证 研究 


1 489 国际 图 书 情报 领域 研究 的 前 治 主题 及 其 演化 趋势 分 析 


收集 数据 后 ， 对 关键 词 进行 标准 化 与 租 选 
等 工作 。 首 先 将 关键 词 进行 同义词 标准 化 ， 例 
如 将 “K-means”“k-means 聚 类 ”与 “K-means 
算法 ”统一 表述 为 “K-means”; 随后 进行 词 
频 统计 ， 由 于 词 频数 较 低 的 词 构建 层次 关系 时 
会 使 得 关键 词 相 关 性 难以 挖掘 ， 因 此 去 除 词 频 
数 在 5 以 下 的 研究 方法 类 关键 词 ; 最 后 根据 词 
频 选 择 作为 特征 项 的 关键 词 ， 选 取 词 频数 达到 
9 的 非 研 究 方法 类 关键 词 作为 特征 项 。 对 关键 
词 进行 筛选 与 选择 后 共有 40 个 研究 方法 类 关 
键 词 、48 个 特征 项 关键 词 ， 分 别 如 表 2 和 表 3 
所 示 : 


表 2 研究 方法 类 关键 词 词 频 


序号 关键 词 词 频 
1 知识 图 谱 137 
2 可 视 化 75 
3 社会 网 络 72 
4 本 体 71 
5 专利 分 析 68 
40 模糊 综合 评价 6 


影响 力 


图 书 情报 领域 ;研究 主题 ;知识 图 谱 ; 前 沿 
趋势 ;CiteSpace 


对 关键 词 进行 词 频 统计 与 筛选 后 ， 应 用 Co- 
Occurrence6.7(COOC6.7) 乓 构建 关键 词 共 现 和 矩 
阵 。 根 据 表 1 构建 表 2 中 研究 方法 类 关键 词 之 
间 的 共 现 矩阵 ;基于 表 1 并 依据 表 2 中 研究 方 
法 类 关键 词 与 表 3 中 的 特征 项 关键 词 间 的 共 现 
关系 ， 构 建 研 究 方法 类 关键 词 与 特征 项 关键 词 
共 现 矩阵 。 


表 3 特征 项 关键 词 词 频 


序号 关键 词 词 频 
1 文献 计量 55 
2 网 络 舆 情 47 
3 大 数据 41 
4 影响 因素 32 
5 高 校 图 书馆 26 
48 信息 行为 9 


4.2 直接 共 现 相似 度 

基于 研究 方法 类 关键 词 的 共 现 矩阵 ， 以 余 
弱 相 似 度 算 法 计算 研究 方法 类 关键 词 癌 量 之 间 
的 余弦 距离 ， 通 过 余弦 距离 来 度量 关键 词 之 间 
的 直接 共 现 相似 度 ， 结 果 如 表 4 所 示 : 


447 


202310.00636v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


表 4 研究 方法 类 关键 词 直 接 共 现 相似 度 
社 本 体 专利 分 析 …… 综合 评 


1 {= 知识 管理 论坛 
i on in 2022 年 第 4 期 (总 第 40 期 ) 
知识 图 谱 可视化 ”社会 网 络 

知识 图 谱 1.000 0.169 0.449 
可 视 化 0.169 1.000 0.396 
社会 网 络 0.449 0.396 1.000 
本 体 0.493 0.555 0.357 
专利 分 析 0.244 0.577 0.585 
模糊 综合 评价 0.000 0.000 0.000 


4.3 间接 共 现 相似 度 
根据 研究 方法 类 关键 词 与 特征 词 的 共 现 
和 矩阵， 以 余弦 相似 度 算 法 计算 研究 方法 类 关 


模糊 综合 评价 
0.493 0.244 0.000 
0.555 0579 天 克 本 0.000 
0.357 0585 ss 0.000 
1.000 520 i 0.000 
0.520 1.000 ee 0.000 
0.000 0.000 1.000 


键 词 向 量 之 间 的 余弦 距离 ， 通 过 余弦 距离 来 
度量 关键 词 之 间 的 间接 共 现 相似 度 ， 结 果 如 
表 5 所 示 


表 5 研究 方法 类 关键 词 间接 共 现 相 似 度 


知识 图 谱 可视化 ”社会 网 络 本 体 专利 分 析 ……… 模糊 综合 评价 
知识 图 谱 1.000 0.736 0.494 0.261 0.203 em 0.189 
可 视 化 0.736 1.000 0.667 0.306 0257 wie 0.214 
社会 网 络 0.494 0.667 1.000 0.279 人 223 eee 0.192 
本 体 0.261 0.306 0.279 1.000 0066 sw 0.000 
专利 分 析 0.203 0.257 2.223 0.066 1000 3 0.000 
模糊 综合 评价 0.189 0.214 0.192 0.104 O000 wm 1.000 


4.4 综合 共 现 相似 度 
得 到 直接 共 现 相似 度 与 间接 共 现 相似 度 后 ， 
通过 调整 加 权 平 均 的 权 值 进行 多 次 实验 ， 当 权 


值 均 为 0.5 时 实验 效果 最 好 ， 故 对 表 4 与 表 5 中 
的 相关 性 矩阵 进行 求 和 并 取 均 值 ， 得 到 研究 方 
法 类 关键 词 综合 共 现 相似 度 ， 如 表 6 所 示 : 


表 6 研究 方法 类 关键 词 综合 共 现 相似 度 


知识 图 谱 “可视化 ”社会 网 络 本 体 专利 分 析 …… 模糊 综合 评价 
知识 图 谱 1.000 0.453 0.471 0.377 0.223 ee 0.094 
可 视 化 0.453 1.000 0.532 0.430 0.417 ee 0.107 
社会 网 络 0.471 0.532 1.000 0.318 0.404 ee 0.096 
本 体 0.377 0.430 0.318 1.000 0.293 ee 0.052 
专利 分 析 0.223 0.417 0.404 0.293 1.000 ee 0.000 
模糊 综合 评价 0.094 0.107 0.096 0.052 0.000 ee 1.000 


4.5 层次 结构 建立 

按照 3.2.3 小 节 所 述 步骤 进行 研究 方法 类 关 
键 词 层 次 结构 的 建立 。 根 据 研究 方法 类 关键 词 
与 特征 项 关键 词 的 共 现 矩 阵 ， 若 关键 词 与 特征 


项 共 现 次 数 在 1 及 以 上 则 认为 其 具有 相关 性 。 
由 此 ， 统 计 与 研究 方法 类 关键 词 有 关 的 特征 项 
关键 词 个 数 ， 以 表示 该 研究 方法 类 关键 词 的 概 
念 范围 ， 结 果 如 图 2 所 示 : 
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依据 图 2 所 示 结 果 ， “知识 图 谱 ” 具 有 和 较 
大 的 概念 范围 ， 因 此 笔者 选择 “知识 图 谱 ” 作 
为 根 节点 进行 研究 方法 类 关键 词 层次 结构 的 构 
建 。 此 外 ， 考 虑 到 层级 中 关键 词 数 量 以 及 关键 
词 概念 范围 的 分 布 情况 ， 笔 者 构建 了 具有 4 层 
层次 关系 的 层次 结构 。 对 图 2 中 关键 词 的 概念 
范围 分 布 情况 进行 分 析 ， 发 现 概 念 浆 值 在 22、 
15、8 等 值 附近 波动 较为 明显 ， 同 时 考虑 到 每 
一 层级 中 的 关键 词 节点 数 ， 设置 第 一 层级 的 概 
念 范围 国 值 为 22， 第 二 层级 的 概念 范围 阔 值 为 
1$5， 第 三 层级 的 概念 范围 阔 值 为 8， 第 四 层级 的 
概念 范围 阔 值 为 1。 

在 加 入 子 节点 时 基于 对 表 6 中 相似 度 结 
的 分 析 ， 设 置 与 根 节 点 “知识 图 谱 ” 毕 合共 现 
相似 度 达到 0.15， 即 与 根 节点 具有 一 定 相关 性 
的 关键 词 能 加 入 层次 结构 ;基于 对 表 4 与 表 $ 
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关键 词 


图 2 研究 方法 类 关键 词 概念 阔 值 分 布 


中 相似 度 结果 的 分 析 ， 设置 与 父 节点 间 直 接 相 
似 度 或 间接 相似 度 达 到 0.5， 即 与 父 节 点 具有 较 
强 相 关 性 的 关键 词 作为 其 子 节点 加 入 层次 结构 。 
基于 表 6 中 的 结果 ， 可 以 发 现在 39 个 研究 方法 
类 关键 词 中 与 根 节点 “知识 图 谱 ” 综 合共 现 相 
似 度 达到 0.15， 可 以 加 入 层次 结构 的 关键 词 共 
有 24 个。 基于 此 ， 从 根 节 点 “知识 图 谱 ” 开 始 
依次 向 层次 结构 中 加 入 子 节点 ， 根 节点 “知识 
图 谱 ” 作 为 层次 结构 的 第 一 层级 共有 3 个 子 节点 ， 
第 二 层级 的 3 个 节点 共有 6 个 子 节 点 , 第 三 层 
级 的 6 个 节点 共有 5 个 子 节 点 ， 即 可 以 加 入 层 
次 结构 的 24 个 关键 词 中 共有 14 个 关键 词 加 入 
层次 结构 ， 另 有 10 个 关键 词 与 所 有 父 节 点 均 不 
满足 相似 度 条 件 ， 故 未 加 入 层次 结构 。 最 后 构 
建 的 以 “知识 图 谱 ” 为 根 节 点 的 层次 结构 如 图 3 
所 示 : 


图 3 “知识 图 谱 ” 层次 结构 
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4.6 层次 结构 构建 结果 分 析 
为 了 与 笔者 提出 的 关键 词 层次 结构 构建 
方法 进行 对 比 ， 以 “知识 图 谱 ” 为 根 节点 ， 


(a) 直接 共 现 相似 度 


ChinaXiv 合 作 期 刊 


分 别 基 于 方法 类 关键 词 间 直 接 共 现 相似 度 和 
间接 共 现 相似 度 构建 层次 结构 。 结 果 如 图 4 
所 示 : 


(b) 间 接 共 现 相似 度 


4 基于 直接 共 现 相似 度 和 间接 共 现 相似 度 的 层次 结构 


比较 图 3 和 图 4 可 以 看 出 ， 基 于 单一 共 现 
指标 的 构建 效果 并 不 太 理想 ， 基 于 综合 共 现 相 
似 度 的 层次 结构 更 为 丰富 ， 子 方 点 较 多 ， 有 利 
于 建立 完善 的 关键 词 层 次 结构 。 同 时 ， 图 3 所 
构建 的 层次 结构 将 研究 范围 相似 度 较 高 的 关键 
词 联系 起 来 ， 并 且 与 同一 研究 主题 相关 度 较 高 
的 关键 词 也 聚集 到 一 起 ， 各 关键 词 被 分 人 到 了 
合适 的 等 级 结构 中 。 


使 结 话 


笔者 以 研究 方法 类 关键 词 为 研究 对 象 ， 综 
合 考虑 关键 词 直接 共 现 关系 和 间接 共 现 关系 ， 
在 关键 词 共 现 关 系 挖掘 的 基础 上 ， 分 析 与 关键 
词 关联 的 研究 范围 大 小 ， 建 立 了 关键 词 层次 结 
构 。 通 过 实例 数据 证 明 ， 笔 者 所 提出 的 方法 相 
较 基 于 单一 共 现 指标 的 方法 ， 能 够 构建 更 为 完 
善 、 关 联 更 为 紧密 的 关键 词 等 级 结构 。 但 是 ， 
本 文 仍 具 有 以 下 局 限 性 : 中 关键 词 间 间 接 共 现 
存在 多 种 情况 ， 而 本 文 仅 考虑 了 两 个 研究 方法 
类 关键 词 应 用 于 同一 研究 主题 或 研究 范围 的 情 
况 ， 未 来 将 进一步 探索 多 种 间接 关系 的 特点 及 
其 对 关键 词 层次 结构 构建 的 影响 ; @@ 受 限于 数 
据 量 , 本 文 仅 选用 具有 代表 性 的 实例 进行 论证 ， 
如 果 选 择 的 样本 数据 量 较 大 ， 则 更 能 充分 体现 
关键 词 间 的 相互 关系 ,那么 层次 结构 构建 的 效 
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果 可 能 会 更 好 。 未 来 ， 笔 者 将 在 较 大 数据 集合 
中 对 此 层次 结构 构建 方法 予以 验证 。 
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Research on the Construction of Keyword Hierarchy Relationship Based on Co- 
occurrence Relationship 


Xiong Huixiang Chen Ziwei Ye Jiaxin 
School of Information Management, Central China Normal University, Wuhan 430079 

Abstract: [Purpose/Significance] Keyword is the most widely used literature knowledge unit, and the 
in-depth mining of its semantic relationship can provide underlying support for knowledge association and 
resource recommendation. [Method/Process] Based on the relationship between the direct co-occurrence 
and indirect co-occurrence of keywords, the correlation between keywords was mined, and on this basis, the 
distribution of keywords was analyzed, and the hierarchical structure between keywords was constructed 
according to the size of the concept range of keywords. [Result/Conclusion] Taking “knowledge graph” as 
the root node, this paper demonstrates the steps of construction of keywords hierarchy. The research shows 
that the method is feasible and effective, and it can construct the hierarchical structure of keywords better. 
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